今天我將對 RPKM 結果進行進一步的驗證,確保數據分布合理且沒有明顯的異常,這一步對於後續的生物學分析至關重要,因為數據的合理性會直接影響分析結果。
上一天我已使用 describe()
函數檢查 RPKM 值的統計信息,包括最小值、最大值、平均值等,今天我將繪製 RPKM 值的分布圖,這能夠更加直觀地幫助我發現數據中的異常點。
import matplotlib.pyplot as plt
# 繪製 RPKM 值的分布圖
plt.hist(df_rpkm_clean.iloc[:, 89:].values.flatten(), bins=100)
plt.title("RPKM 值分布")
plt.xlabel("RPKM")
plt.ylabel("頻率")
plt.show()
這段代碼使用 matplotlib
庫繪製了一個 RPKM 值的分布圖,讓我將所有樣本中的 RPKM 值展開為一個一維數組,並使用直方圖顯示其分布情況。通過這個圖表,我可以直觀地查看 RPKM 值的分布是否正常,並快速發現潛在的異常。